在本文中,我们解决了在涉及大规模数据的设置中进行统计推断的问题,这些数据可能是高度的,并且被异常值污染。数据的大量和维度需要分布式处理和存储解决方案。我们提出了一个两阶段分布和强大的统计推断程序,通过促进稀疏性来应对高维模型。在第一阶段(称为模型选择)中,相关预测因子是通过将强大的LASSO估计器应用于不同数据子集的局部选择。然后,从每个计算节点中的变量选择通过投票方案融合,以找到完整数据集的稀疏基础。它以强大的方式识别相关变量。在第二阶段,采用了开发的统计上健壮的和计算高效的引导方法。实际推断构建体间隔,找到参数估计并量化标准偏差。与第1阶段类似,将局部推理的结果传达给融合中心并在此组合。通过使用分析方法,我们建立了鲁棒和计算有效的引导方法的有利统计特性,包括固定数量的预测因子和鲁棒性的一致性。提出的两阶段的鲁棒和分布式推理程序在变量选择中表现出可靠的性能和鲁棒性,即使数据是高度且受异常值污染的,找到置信区间和标准偏差的自举近似。
translated by 谷歌翻译